日本語音声技術への挑戦
The Challenges of Japanese Speech Technology
1.日本語は「音標的」なのか?
一般に、仮名文字は「音声的」であるとの誤った認識がある。つまり、日本語の仮名は「書いてある通りに発音し、発音の通りに書く」ものであるという認識である。しかし、純粋な音素表記法では書記素と音素が一対一に対応するはずであり、日本語の仮名表記は実際のところこれに当てはまらない。このことは、日本語音声技術システムを開発するに当たり、まず乗り越えなければならない課題なのである
日中韓辭典研究所 (CJKI) は日中韓各語の辞書編纂を専門としており、日中両語の語句が実際の発話ではどの様に発音されるのかを正確に示す音韻・音声データベース(JPD)の開発に力を注いでいる。本稿では日本語の音韻論と音声学における主要な課題をいくつか論じるが、深い説明はせずにあくまで簡潔に留めてある。とは言え、音声学的な視点から見て自然な音声合成の実現にあたり取り組むべき難関を明確化するには十二分である。本稿中の説明は専門的であるため、理解には日本語音韻論及び音声学の予備知識を必要とする。
CJKIの音韻データベースの詳細については、「 日本語音韻データベース」を参照されたい。
2.表記法の凡例
本稿で使用する表記法を、「新聞」を例に挙げて示す。
- 音素表記には、スラッシュ記号(/ /)を用いる。例、/siNbuN/
- 仮名表記には、片仮名を用いる。例、シンブン
- 音声表記は、国際音声記号(IPA)をブラケット([])に入れて用いる。例、[ɕimbɯɴ].
- ヘボン式ローマ字には、イタリック体を用いる。例、shimbun
日本語の5つの標準母音は、下表の通り国際音声記号を用いて簡略表記してある。簡略表記は実際の発音を厳密に反映するわけではない。例えば、エ /e/ と オ /o/ はどちらも基本母音の [e] と [o] よりも低い位置で発音されるため、[e̞] と [o̞] の方が実際の音に近い。特に ウ /u/ の実現は下表の精密表記の列にも見られる様に差異が大きく、どの国際音声記号を用いても正確に表記することは不可能である。ウの音は唇を少し丸めて発音されるやや前寄りの後舌狭母音であり、[ɯ] で表される後舌平唇狭母音とは異なる。しかし、/u/ は [ɯ] で表記するのが慣例であるため、本稿でもこれに従う。
|
もう一つの問題は、シ、チ、ジといった摩擦音/破擦音をどの様に表記するかということである。英語の影響を受けてのことであろうか、これらの摩擦音/破擦音は慣例的に [ʃi]、[tʃi]、[dʒi] と表記されることが多いのであるが、本稿では [ɕ]、[tɕi]、[dʑi] を採用してある。これらの音は、厳密には対応する英語の音よりもやや後方で発音されるのであり、硬口蓋歯茎音というより歯茎硬口蓋音であるからである。(更に正確を期そうとすれば、チは [cɕi]、ジは [ɟʑi] という表記も可能であろう。)
3.仮名表記は音素的なのか
仮名文字は全体的に見て音素的、つまり仮名の一文字一文字が個別の音素(例、ア = /a/)あるいは2音素の組み合わせ(例、カ = /k/ + /a/)に相当すると言って良いが、それでも曖昧な文字があるのは確かである。例えば、ウは /o/ と /u/ の両方を表す。トウが「塔」の読みである場合のウはトの母音を伸ばす音素 /o/(音声的には [o])を表すのに対し、「問う」の読みのトウでは /u/(音標的には [ɯ])、という風に、異なる二つの音素に対応しているのである。
仮名文字は下記の様な一対多の曖昧さのため、厳密には音素文字体系とは言えない。
- 長母音の表記の違い。例えば、トオリ(通り)とトウリ(党利)の様に、長母音 /o/ の表記にウまたはオが使われ、ネエサン /neesan/(姉さん)とケイサン /keesan/(計算)の長母音 /e/ にはエまたはイが使われる。
- 同様に、イはケイ、メイなどの /i/ または /e/ を表せる。メインは /mein/ と /meen/ どちらにもなり得る訳である。
- ハが /ha/ と /wa/ の両方を表し得るといった、旧仮名遣いの名残による曖昧さ。例えば、ワタシハ(私は)と言う時のは /wa/ はハで書き表すが、ワ /wa/ と同じ音なのである。
- ジ/ヂ /zi/ やヅ/ズ /zu/ といった仮名は、各ペアが全く同じ音素を表す。例えば、/zi/(音標的には [dʑi])は通常ジブン(自分)の様にジと書くが、チヂム(縮む)の時にはヂと書く。
- 音素 /t/ が /i/ の前では [tɕ] を、/u/ の前では [ts] を表すといった、異音交替。例、タ /ta/ が [ta] であるのに対し、チ /ti/ は [tɕi]、ツ /tu/ は [tsu] と発音される。
当研究所の音韻データベースは仮名文字列からなる日本語の語句を一義的な音素列に正規化することを可能にし、上記の様な仮名文字と音素の対応の曖昧さを排除することに成功している。
4.異音変異 ― 本当の挑戦とは
仮名文字と音素の対応の曖昧さを解消すれば問題は半ば解決したかに見えるが、実は最大の難関がこの後に待ち受けている。本当の難題は音素を音、つまり実際の言語音に変換するところにある。言語には音声環境によって起こる異音変異が付き物であり、当然日本語においても音素と単音に一対一の対応が見られない場合がよくある。従って、音素と単音の正確な変換は自然な音声合成の必須条件なのである。
ここで、日本語の発音変異に関わる問題を幾つか、(音韻学的な見地からでなく)音声学的な見地から簡単に見てみることにする。日本語の異音変異を促す音声的環境は、韓国語などの言語と比較すればそれほどでもないがやはり複雑である。言語音(単音)というのは環境によって異なって具現されるため、仮名文字でこれらの音の実際の発音を正確に書き表すことは出来ない。仮名をローマ字化したり、補助記号を用いてウが [ɯ] と [o] のどちらを表すか特定したりしてもなお、一対多的な曖昧さを完全に取り去って言語音の正確な表記をすることは不可能なのである。
次に説明するのは、母音の無声化や撥音の鼻音化といった異音及びその他の変異である。こういった変異は、母語話者が普通に発話する際には極めて自然に無意識的に起こっているのだが、この変異を考慮するか否かは自然な音声合成に決定的な影響を与える。音声合成技術の開発における課題たる所以である。
- 母音の無声化
東京方言の明らかな特徴として、アクセントのない高母音 /i/ や /u/ は特定の環境に置かれた場合に無声化されやすいということが挙げられる。よく見られるのは無声子音の間に挟まれた時で、例えば、/ainosuke/ (愛之助) の /su/ は通常通りの [sɯ] ではなく、無声化した [sɯ̥] として発音される。また、語尾の母音が無声化されることもある。続く /tuzuku/ の様に単語の最後が無声子音と母音で終わる場合、実際の発音は [tsɯ̥zɯkɯ̥] と [tsɯ̥zɯkɯ] の両方が可能である。/o/ や /a/ の無声化も起こり得るが、頻度は比較的低い。
- /g/ の鼻音化
/g/ (ガ行)は語中に現れる場合、しばしば [ŋ](話者によっては [ŋg])に鼻音化する。通常 /g/ は有声軟口蓋閉鎖音 [g] として発音されるが、[ŋ] はこれとは音声的に異なる /g/ の異音である。/kage/(影)を例に挙げて見てみると、/ge/ は鼻濁音の異音 [ŋe] となり単語全体が [kaŋe] として具現化するのが分かる。また、一部の話者は母音間の /g/ を特定の環境で有声軟口蓋摩擦音 [ɣ] として発音するため [kaɣe] という発音も聞かれ、これは早口で喋る場合に顕著である。その一方、/g/ の鼻音化は若い世代の間では減少し、余り聞かれなくなりつつある。
通常表記 仮名表記 音声表記 注 影 カゲ [kage] unnasalized by most speakers 影 カゲ [kaŋe] nasalized intervocalically 影 カゲ [kaɣe] fricativized in fast speech 画像 ガゾウ [gazoː] never nasalized word intially
- 鼻音同化
鼻音の音素 ン /N/(撥音)は、同時調音を含む複雑な鼻音同化の法則に従い、6つの異音として出現する。例えば /N/ が特定の環境で [m] として発音される /siNbuN/(新聞 シンブン)[ɕimbɯɴ] などが代表的だが、これ以外の撥音の異音変異の法則は母国語話者にとっては感覚的に掴みにくく、ほとんど意識されない。主な法則を簡単にまとめると、両唇音 [m]、[b]、[p] の前では両唇鼻音 [m] に、軟口蓋閉鎖音 /k/ と /g/ の前では軟口蓋鼻音 [ŋ] に、/t/、/d/、/n/、/r/ の前では [n] に、母音、半母音および特定の子音の前では鼻母音に、そして語末では口蓋垂鼻音 [ɴ] に変化する、としておけば良いであろう。この6種類の異音の例を下表に示す。
通常表記 仮名表記 音声表記 自分 ジブン dʑibɯɴ 純子 ジュンコ dʑɯŋko 慎一 シンイチ ɕiĩtɕi̥ 新聞 シンブン ɕimbɯɴ 運動 ウンドウ ɯndoː 蒟蒻 コンニャク koɲɲakɯ 本 ホン hoɴ, hõ 自然な音声合成を実現するためには、撥音の異音を正確に合成することが重要な課題となる。
- 破擦音の摩擦音化
日本語の異音変異の中でも微妙と言えるものの1つに、語頭で起こる一部の破擦音の摩擦音化がある。例えば、語頭では歯茎硬口蓋破擦音 [dʑi](例、[dʑibɯɴ] 自分)として発音される /zi/ は、母音間では歯茎硬口蓋摩擦音 [ʑi](場合によっては [dʑi])に変化する(例、[haʑi] 恥)。同様に、/zu/ は語頭では [dzu]、それ以外の位置では [zu] と発音される。また、特に東京の若い女性の発音に聞かれる、通常は歯茎硬口蓋摩擦音 [ɕi] として発音される /si/ が歯茎摩擦音 [si] となる例なども、この現象と関係している。
通常表記 音素表記 音声表記 自分 /zibun/ [dʑibɯɴ (ɟʑibɯɴ)] 恥 /hazi/ [haʑi (hadʑi)] 地震 /zisiɴ/ [dʑiiɴ (ɟʑiɕiɴ)] 塩 /sio/ [ɕio (sio)] 摩擦音化というのは基本的には破擦音が語頭以外の位置で弱化する現象であり、弱化の度合いは話者により異なる。従って、ここで見られる破擦音‐摩擦音間の変化は自由変異と言える。
- 連濁
連濁は頻繁に起こる現象でその法則は複雑である。複合語の2つ目の構成要素の最初にある無声子音が有声化されるのが良くある例で、例えば「寿司」を単独で発音すると [sɯɕi] だが、複合語の「いなり寿司」は [inaɾizɯɕi] となり、[su] が [zɯ] に変化しているのが分かる。
通用表記 無声 有声 いなり寿司 [inaɾi] + [sɯɕi] [inaɾizɯɕi] 物語 [mono] + [kataɾi] [monogataɾi] 二人連れ [futaɾi] + [tsuɾe] [futaɾizure] 棒立ち [boː] +[tatɕi] [boːdatɕi] 花火 [hana] +[hi] [hanabi]
上表の最後の例では声門摩擦音 [h] が両唇閉鎖音 [b] に変わっている。よくある連濁現象の1つだが、音声学的な発声(有声、無声の区別)はこれには無関係である。連濁は予測できない場合が多く、発生する条件を法則化しようとしても無駄に近い。従って、連濁を含む語句をそっくりデータベースに収録してしまうのが唯一確実な方法である。
- 口蓋化
子音の中には /j/ が後続する場合に口蓋化されるものがあり、仮名表記ではギャ [gʲa]、ギュ [gʲɯ]、ギョ [gʲo] の様に子音の後に小さいャ、ュ、ョを加えて書く。(「仮名とローマ字」ページ参照。)/i/ の前で口蓋化する子音もあり、特に /n/ には多く見られる。この場合 /niQpon/(日本)は [nʲip̚poɴ] と発音される。下表にある様に、/mi/ や /ki/ 等もやや口蓋化することがある。
通常表記 音素表記 音声表記 客 /kyaku/ [kʲaku] 日本 /niQpon/ [nʲip̚poɴ] 民 /tami/ [tamʲi] 滝 /taki/ [takʲi]
- 子音の促音化
日本語でいう促音化とは、モーラを形成する妨げ音が詰まって2つ重なり、それぞれの子音が一瞬の休止を挟んで別々のモーラに属するという現象である。詰まる音は小さいッで表す。日本語音韻論では、「原音素」/Q/ を用いて /tatta/(立った)を /taQta/ の様に音素表記するのが主流である。
/Q/ は後続の子音によって発音が異なり、/haQsai/(八歳)では後ろの子音を重ねて発音されるので実際の発音は [hassai] だが、/taQta/ の場合は重なった子音の始めの [t](内破音)が開放されないため後ろの [t](外破音)とは違った音になる。/taQta/ の実際の発音を厳密に表記すれば [tatta] でなく [tat̚ta] となる訳である。また、破擦音が促音化される場合は破裂音の部分のみが繰り返され、例えば /haQtjuu/(発注)は [hatɕtɕɯː] でなく [hat̚tɕɯː] と発音される。
通常表記 音素表記 音声表記 日本 /niQpon/ [nʲip̚poɴ] 八歳 /haQsai/ [hassai] 発注 /haQtuu/ [hat̚tɕɯː] 発車 /haQsja/ [haɕɕa]
- 母音の声門音化
日本語では、短い単語を単独で発音する時や強調が必要な場合に母音の前後に声門閉鎖音が現れることがある。アッ /aQ/(発音は [aʔ])の様に語末に現れる声門閉鎖音ははっきりと聞き取れる場合もあり、小さいッで表記する。
通常表記 音素表記 音声表記 アッ /aQ/ [aʔ̚] 鵜 /u/ [ʔɯʔ] サッ [saQ] [saʔ]
5.高低アクセント
日本語の高低アクセントの仕組みは中国語等の語調言語とは種類が異なり、基準となるのはモーラである。中国語は各音節に対して声調を指定する必要があるが、日本語ではアクセントのあるモーラのみ指定すれば音韻法則に従って単語全体の音の高低が決まる。
ここで /anata/(あなた)を例に見てみると、第二モーラの /na/ にアクセントがありピッチが高い。アクセントのあるモーラに後続するモーラは全てピッチが低くなる。また、語頭のモーラはアクセントがある場合を除き、低くなるという法則がある。従って、/anata/ はLHL(低高低)、[anáta] と発音される。/katati/(形)の様にアクセントがない語は平板型と見てよいが、最初のモーラは低くなるので語全体のピッチはLHHとなる。
日本語アクセントの高低パターンの例を下表に示す(最初の3例はCJKIの日本の名字データベースより転載)。丸括弧内のLとHは単語に付く助詞のピッチを、数字は何番目のモーラにアクセントがあるかを示す。この数字の直後に来るモーラはピッチが低くなる。
下表で0が付いている平板型の語(日本語の語彙の約80%を占める)は、前述の法則に従って最初のモーラが低く、残りの部分と後続助詞が高い。この逆のパターンに該当するのが /kagami/(鏡)等の尾高型(高低パターン3)の語で、この場合は語の後の助詞はピッチが下がる。つまり、平板型の /katati ga/ は高低パターンがLHH(H)、そして /kagami ga/ はLHH(L)となる訳である。
|
6.音韻データベースの役割
SF映画に登場するロボットの、金属質で抑揚のない“声”― 技術が日々進歩する現実の世界では、こんなイメージはもう過去のものとなってしまった。今のユーザが他ならぬコンピューター音声に求めているのは、正しい発音とイントネーションを併せ持った自然な“声”である。これを実現させるには仮名表記が持つ音素上の曖昧さを取り除くばかりでなく、人間の発音に現れる異音と高低パターンを合成しなくてはならない。
音声技術のシステムがどんなに高性能で素晴らしくても、音声・音韻データベースなくしてその本領を発揮することは出来ない。このニーズに応えるため、日中韓辭典研究所は日中韓各語の包括的データベースの研究開発に力を注いでおり、「日本語音韻データベース」には正確な音素・音声表記を含む様々な情報を収録してある。当研究所は、総合的な音韻データベースおよび言語分野の専門コンサルティングサービスを提供することにより、日中韓各語の音声技術発展への貢献を目指すものである。